Apprentissage par imitation dans un cadre batch , off - policy et sans modèle

نویسندگان

Edouard Klein

Matthieu Geist

Olivier Pietquin

چکیده

Résumé : Ce papier traite le problème de l’apprentissage par imitation, c’est à dire la résolution du problème du contrôle optimal à partir de données tirées de démonstrations d’un expert. L’apprentissage par renforcement inverse (IRL) propose un cadre efficace pour résoudre ce problème. En se basant sur l’hypothèse que l’expert maximise une fonction de valeur, l’IRL essaie d’apprendre la récompense qui définit cette dernière à partir de trajectoires d’exemple. Beaucoup d’algorithmes d’IRL font l’hypothèse de l’existence d’unn approximateur linéaire pour la fonction de récompense et calculent l’attribut moyen (le cumul moyen pondéré des fonctions de base, relatives à la paramétrisation linéaire supposée de la récompense, évaluées en les états d’une trajectoire associée à une certaine politique) via une estimation de Monte-Carlo. Cela implique d’avoir accès à des trajectoires complètes de l’expert ainsi qu’à au moins un modèle génératif pour tester les politiques intermédiaires. Dans ce papier nous introduisons une méthode de différences temporelles, LSTD-μ, pour calculer cet attribut moyen. Cela permet d’étendre l’apprentissage par imitation aux cas batch et off-policy.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Apprentissage par démonstrations : vaut-il la peine d’estimer une fonction de récompense?

Résumé : Cet article propose une étude comparative entre l’Apprentissage par Renforcement Inverse (ARI) et l’Apprentissage par Imitation (AI). L’ARI et l’AI sont deux cadres de travail qui utilisent le concept de Processus Décisionnel de Markov (PDM) et dans lesquels nous cherchons à résoudre le problème d’Apprentissage par Démonstrations (AD). L’AD est un problème où un agent appelé apprenti c...

متن کامل

Filtrage bayésien de la récompense

Résumé : Une large variété de schémas d’approximation de la fonction de valeur a été appliquée à l’apprentissage par renforcement. Cependant, les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d’autres domaines comme l’apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu’à présent. Cette contribution introduit un cadre de travail géné...

متن کامل

SLEMC : Apprentissage semi-supervisé enrichi par de multiples clusterings

Résumé. La tâche de classification supervisée consiste à induire un modèle de prédiction en utilisant un ensemble d’échantillons étiquetés. La précision du modèle augmente généralement avec le nombre d’échantillons disponibles. Au contraire, lorsque seuls quelques échantillons sont disponibles pour l’apprentissage, le modèle qui en résulte donne généralement des résultats médiocres. Malheureuse...

متن کامل

Un système de prédiction spectrale pour une connectivité permanente dans le cadre du suivi en temps réel de patients

Résumé. Le suivi régulier des signes vitaux garantit un traitement préventif des pathologies courantes chez une personne, lui assurant ainsi un meilleur état de santé. La majorité des solutions proposées dans ce contexte, repose sur un ensemble de capteurs sans fil hétérogènes équipant le patient et son environnement. L’urgence des transmissions de données médicales générées par ces capteurs, a...

متن کامل

Vers une Théorie du Test des programmes à contraintes

Tout processus de développement logiciel effectué dans un cadre industriel inclut désormais une phase de test ou de vérification formelle, y compris pour le développement des programmes à contraintes. Notre travail vise à poser les jalons d’une Théorie du test des programmes à contraintes qui puisse servir de socle à cette vérification. Cette nouvelle théorie est également motivée par le dévelo...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2011

Apprentissage par imitation dans un cadre batch , off - policy et sans modèle

نویسندگان

چکیده

منابع مشابه

Apprentissage par démonstrations : vaut-il la peine d’estimer une fonction de récompense?

Filtrage bayésien de la récompense

SLEMC : Apprentissage semi-supervisé enrichi par de multiples clusterings

Un système de prédiction spectrale pour une connectivité permanente dans le cadre du suivi en temps réel de patients

Vers une Théorie du Test des programmes à contraintes

عنوان ژورنال:

اشتراک گذاری